4 人 不甘 日 车 | 
IaA | 上 从 只 十， 
第 39 卷 第 9 其 计算 机 应 用 研究 Vol. 3 No.9 


录用 定稿 Application Research of Computers Accepted Paper 


基于 深度 强化 学 习 的 随机 资源 受 限 多 项 目 动态 调度 策略 
郭 晓 剑 ， 胡 方 勇 


(江西 理工 大 学 经 济 管理 学 院 , 江西 竟 州 341000) 


摘 要 : 目前 对 于 随机 工期 的 分 布 式 资源 受 限 多 项 目 调度 (SDRCMPSP) 问 题 的 研究 较 少 且 大 多 数 为 静态 调度 方案 ， 
无 法 针对 环境 的 变化 实时 地 对 策略 进行 调整 优化 ， 及 时 响应 频繁 发 生 的 动态 因素 。 为 此 建立 了 最 小 化 总 拖 期 成 本 为 
目标 的 随机 资源 受 限 多 项 目 动态 调度 DRL 模型 ， 设 计 了 相应 的 智能 体 交 互 环境 ,采用 强化 学 习 中 的 DDDQN 算法 
对 模型 进行 求解 。 实 验 首先 对 算法 的 超 参数 进行 灵敏 度 分 析 ， 其 次 将 最 优 组 合 在 活动 工期 可 变 和 到 达 时 间 不 确定 两 
种 不 同 条 件 下 对 模型 进行 训练 及 测试 ， 结 果 表 明 深 度 强化 学 习 算 法 能 够 得 到 优 于 任意 单一 规则 的 调度 结果 ， 有 效 减 
少 随 机 资源 受 限 多 项 目 期 望 总 拖 期 成 本 ， 多 项 目 调度 决策 优化 提供 良好 的 依据 。 
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Stochastic resource-constrained multi-project dynamic scheduling strategy based on 
deep reinforcement learning 


5 Guo Xiaojian, Hu Fangyong 
-| (School of Economics & Management, Jiangxi University of Science & Technology, Ganzhou Jianexi 341000, China) 


Abstract: There are few studies on the problem of stochastic resource-constrained distributed multi-project scheduling 
(SDRCMPSP) and most of them are static scheduling schemes, which cannot adjust and optimize the strategy in real time 
according to changes in the environment and respond to frequent dynamic factors in a timely manner. Therefore, this paper 
established a stochastic resource-constrained multi-project dynamic scheduling DRL model with the goal of minimizing the 
total drag cost, design the corresponding agent interaction environment, and use the DDDQN algorithm in reinforcement 
learning to solve the model. The experiment first analyzes the hyperparameters of the algorithm, and then trains and tests the 
model under two different conditions of variable activity duration and uncertain arrival time, and the results show that the 
deep reinforcement learning algorithm can obtain scheduling results that are better than any single rule, effectively reduce the 
total drag-off cost of random resources limited multi-project expectations, and provide a good basis for multi-project 
scheduling decision optimization. 
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A 对 以 往 经 验 进 行 有 效 的 利用 ， 无 法 及 时 对 动态 环境 作出 实时 

0 引言 a 

(VY 的 决策 。 
人 随 着 社会 的 发 展 项 目 管理 技术 显得 尤为 重要 ， 在 项 目 调 以 目标 为 导向 的 强化 学 习 算 法 ， 以 其 能 够 实现 离线 学 习 


CS 度 的 过 程 中 资源 的 合理 配置 与 调度 起 着 决定 性 的 作用 ， 该 类 与 在 线 应 用 的 优势 被 广泛 运用 于 动态 环境 下 的 调度 问题 上 
问题 通常 称 之 为 资源 受 限 项 目 调度 问题 (resource-constrained 00。 且 由 以 往 文 献 可 知 强化 学 习 算 法 在 被 广泛 运用 于 车 间作 
project scheduling problem, RCPSP)[。 现 实情 况 下 往往 需要 业 的 动态 调度 问题 上 并 取得 较 好 的 结果 D0020304, 且 目 前 并 
同时 调度 多 个 资源 受 限 的 项 目 趾 ， 且 存在 局 部 与 全 局 资源 的 未 有 文献 研究 深度 强化 学 习 算 法 在 多 项 目 随 机 调度 问题 上 的 


约束 称 之 为 分 布 式 资源 首先 多 项 目 调度 (distributed resource- 应 用 ,因此 本 文 将 该 算法 运用 至 SDRCMPSP 的 动态 调度 上 。 
constrained multi-project scheduling problem,DRCMPSP) 。 然而 本 文 针 对 活动 工期 、 项 目 到 达 日 期 偏差 情况 而 造成 多 项 目 
在 工程 实际 中 ， 项 目 实施 可 能 受到 各 种 不 确定 因素 的 影响 ， 作业 的 总 拖 期 成 本 TIC(total tardiness cost) 增 加 的 影响 , 通过 
如 缺少 相关 项 目 经 验 、 生 产 设备 故障 、 资 源 不 可 用 、 天 气 状 深度 强化 学 习 中 智能 体 不 断 与 环境 进行 仿真 交互 , 采用 文献 [14] 
况 等 导致 活动 工期 或 项 目 到 达 时 间 与 预 估 时 间 产 生 偏离 中 的 DDDQN 算法 进行 调度 策略 的 优化 。 首 先 提出 静态 环境 下 多 
使 预先 制定 的 多 项 目 计划 不 可 行 ， 便 需要 一 种 有 效 的 方法 减 项 目 调度 的 数学 模型 并 将 其 结合 并 行 调 度 方案 转换 为 动态 调度 
少 多 项 目的 期 望 总 拖 期 成 本 ETTC(except total tardiness cost) 过程， 其 次 根据 多 项 目 动态 调度 流程 及 总 拖 期 成 本 搭建 与 智能 
该 类 问题 称 之 为 随机 资源 受 限 多 项 目 调度 (SDRCMPSP) 问 题 。 体 交 互 的 环境 ， 运 用 DDDQN 算法 使 的 智能 体 在 环境 中 根据 当 
目前 关于 SDRCMPSP 问题 的 文献 相对 较 少 ， 并 且 大 部 分 调 前 状态 不 断 进 行 探 索 和 对 现 有 知识 的 利用 优化 不 同 状态 下 的 策 


度 策略 是 静态 的 和 内， 如 优先 规则 算法 加 9。 此 外 Song 等 采用 各 ， 以 此 降低 随机 资源 约束 多 项 目 调度 的 ETTC。 将 所 建立 的 模 
优先 规则 启发 式 算法 来 生成 基线 计划 ， 并 将 受 影响 的 活动 推 ”型 与 算法 进行 超 参数 的 策略 组 合 分 析 求 出 最 优 的 超 参数 组 合 ， 
至 最 早 可 行 的 时 间 执行 四、Tosselli 等 采用 了 重复 协商 博弈 的 后 将 该 组 合 运用 活动 工期 可 变 或 项 目 到 达 时 间 不 确定 的 动态 环 
方法 名、 刘 东 宁 等 采用 了 多 优先 规则 启发 式 方法 (MPRH)D， 卉 下 进行 仿真 研究 。 仿 真 结果 表明 应 用 深度 强化 学 习 方法 能 
该 方法 虽然 能 够 在 活动 工期 变化 的 动态 环境 下 减少 多 项 目 工 使 智能 体 学 习 到 优 于 任何 单一 规则 的 调度 策略 ， 为 多 项 目 在 动 
期 延误 成 本 ， 但 在 每 次 决策 点 时 需要 进行 多 次 仿真 实验 ， 未 ”” 态 环境 下 的 调度 提供 良好 的 决策 依据 。 
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和 一 项 目 i(i=1,..,m) 所 组 成 ， 在 


f 动 其 工期 为 di 和 两 个 工期 及 
有 aio、ai(Ji+)。Ai 表示 活动 ai 的 紧 前 
活动 集合 ， 活 动 ai 的 开始 时 间 需 大 于 Ai 中 活动 完成 时 间 的 最 


大 值 ; Li 表示 项 目 资源 集合 ，Ri 表示 局 部 资源 的 可 用 


合用 Rg 表示 其 可 j 量 ; 活动 aij 在 任意 时 


刻 被 执行 时 ， 需 要 站 及 攻关 


i 的 ai(Jit1) 活 动 的 完工 时 间 


FTi(Ji+1) 表 示 。FTi(Ji+1) 当 
TC(tardiness cost)， 对 于 1] 


其 中 :ci 表示 项 目 i 单位 延 共 


为 最 小 化 各 项 目的 总 拖 期 成 本 TTC， 


1.2 多 项 目 动态 调度 转换 
然而 在 实际 情况 


完工 活动 集合 F、 正 在 


202205.00080v1 


调度 信息 包括 各 项 目的 规模 、 活 动工 期 、 
局 资源 需求 量 ， 清 空 所 有 活动 集合 。 


局 可 更 新 资源 ; 项 目 i 的 


日 期 时 便 会 产生 拖 期 成 本 


期 成 本 TCi 为 
TC =(FT (J +1)-ST ~cpl )xo; (1) 
ST +cpl; 表示 项 目 i 的 截至 


调度 问题 中 ， 其 目标 


即 
O) 


期 会 受到 环境 的 不 确定 性 而 
比 时 多 项 目的 静态 调度 问题 
周 度 尽早 安排 活动 的 原理 ， 
] 的 调度 ， 本 文采 用 并 行 调度 方式 
实现 多 项 目的 动态 调度 。 在 多 项 目的 并 行 调 度 过 程 中 t 表示 
[初始 为 0), 存在 的 集合 包 
执行 的 活动 的 作业 集合 D、 所 
紧 前 活动 均 已 完工 的 候选 活动 集合 P、 各 项 目 未 选择 活动 的 
动态 调度 流程 如 下 : 
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度 灾难 问题 ”。 在 本 文中 多 项 目 调度 的 状态 特征 包括 三 个 mx 
max(Jir+l) 的 矩阵 ，max(Jirl) 表 示 所 有 项 目 活 动 规模 中 的 最 大 
值 ， 三 个 抢 阵 分 别 为 调度 结果 抢 阵 FN、 活 动作 业 年 阵 DN、 


可 执行 活动 矩阵 PN。 
FN 是 由 每 个 项 目 中 各 活动 的 完工 时 间 组 成 的 矩阵 ， 在 
输入 网 络 前 对 其 进行 最 大 值 标准 化 处 理 ， 初 始 赋值 为 零 。 
Fh 内 Fl Re Fl nar ly) 
FN= FT FT Fh nar ts (3) 
FF， 0 FT es Flinax tt) 


DN 表示 各 项 目 中 每 个 活动 当前 所 处 状态 ， 若 正在 执行 


要 规范 化 。 
1 1 0 
DN=|1 0 0 
0 … 0 .. 0| 


则 为 1 否则 为 0 由 于 该 矩阵 中 的 数值 取 值 为 1 或 0 因此 不 需 


(4) 


PN 表示 各 项 目 中 每 个 活动 是 否 在 当前 时 刻 执 行 ( 即 该 活 
动 的 所 有 紧 前 活动 均 已 完成 ) 若 是 则 为 1 否则 为 0， 同 理 无 须 


进行 规范 化 。 


考虑 到 深度 学 习 原始 输入 中 的 特征 提取 ， 将 三 个 特征 算 
阵 看 做 高 度 为 矩阵 行 数 、 宽 度 为 矩阵 列 数 的 图 像 的 三 个 不 同 


通道 ， 采 用 卷 积 输入 的 形式 进行 训练 。 


加 
国 


判断 所 有 未 添加 至 U 生 
项 目的 所 有 活动 添加 至 U。 


的 开始 时 间 STi 是 否 


是 否 存在 所 有 上 紧 前 


chinaXiv 


活动 均 已 完工 的 活动 ， 若 
除 该 活动 , 否则 转 至 步骤 9。 


规则 从 了 P 中 选取 优先 级 


活动 是 否 存在 资源 冲突 ， 
若是 则 转 至 步骤 d) 否 则 将 该 活动 从 P 中 删除 后 添加 至 D 中 ， 
并 继续 步骤 c);， 若 了 


步骤 dd)。 


和 D 中 最 早 完工 的 


从 当前 时 刻 各 项 目的 可 执行 


个 或 若干 个 活动 ， 令 t 等 于 该 
的 完工 时 间 将 其 从 DD 中 移 除 并 添加 至 上 中 。 
动 是 否 全 部 完成 ， 若 是 则 输出 各 项 目的 
HG=1mm) 同 时 计算 +TTC, 否则 转 至 步骤 b)。 
基于 DDDQN 的 分 布 式 多 项 目 动态 调度 


多 项 目 动态 调度 的 问题 是 


攻 中 按照 一 定 规则 并 在 满足 


局 部 、 全 局 资源 约束 的 条 件 
E 执 行 的 若干 个 活动 进行 作业 ， 直 到 所 有 项 目的 活 
连续 的 决策 过 程 ， 因 此 可 以 将 
马尔 可 夫 决 策 问题 ， 即 对 问题 的 


该 问题 转换 为 马尔 可 夫 或 


刻 的 环境 特征 作出 左右 决策 。 
可 以 采取 数组 或 表格 的 方式 进 


旧 深 度 神 经 网 络 函 数 j 


多 充分 反映 当前 时 刻 智 能 体 所 处 环 
进行 决策 时 ， 智 能 体 需 根据 当前 时 
当 问 题 的 状态 集 为 有 限 个 时 ， 
行 表示 , 被 称 之 为 RL。 然 而 在 
E 续 的 状态 空间 ， 此 时 需要 采 

， 消 除 RL 算法 面临 的 “ 维 


2.2 动作 定义 


在 多 项 目 动态 调度 DRL 模型 中 ， 动 作 空 间 是 由 许多 单 


(5) 


一 规则 的 调度 算法 组 成 ， 通 过 强化 学 习 算 法 针对 不 同 状 态 选 
择 合适 的 调度 规则 ， 以 此 克服 单一 规则 的 局 限 性 。 本 文选 用 


15 个 单一 的 调度 规则 ， 前 7 个 为 集中 式 


周 度 规则 ， 后 8 个 为 


复合 式 调度 规则 。 其 中 OFTi 表 示 项 目 i 在 仅 考虑 局 部 资源 约 


束 下 的 最 优 调度 方案 ， 采 用 基于 活动 列表 编码 的 改进 灰 狼 算 


法 求解 所 得 。15 个 调度 规 由 


1 如 表 1 所 示 ， 


其 中 项 目 i 表示 已 


经 到 达 且 候选 活动 集 非 空 的 项 目 ，j 表示 该 项 目 中 的 候选 活 
动 。 其 中 规则 1~6 将 各 项 目的 候选 活动 身 
择 活动 的 同时 确定 了 该 活动 所 在 项 目 ， 规 则 7~14 则 是 优先 
先 择 项 目 p 之 后 从 项 目 p 的 候选 活动 集中 


2.3 奖励 函数 


攻 视 为 一 个 集合 在 选 


选取 活动 。 


于 本 文 研究 的 分 布 式 多 项 目 动态 调度 的 目标 时 实现 总 拖 


期 成 本 最 小 ， 为 了 即时 奖励 能 够 准确 评价 动作 进行 如 下 设 定 : 
pa ds = 力 ) (max{FT.™}—max{FT})xo@, 


天 mR i 6 
DD dy pa ( ) 


Qi 表示 项 目 拖 期 成 本 。 令 


其 中 :max {FT 让 表示 t 时 刻 项 目 i 已 完工 活动 的 最 大 完工 时 间 ， 


DD d; —max{FT’}x@.) 


Zi 三 


> > 地 
FE 


则 uo=0 此 时 算法 的 累计 奖励 计算 如 下 


了 了 
R 2 a Dil w= -+ —u, 
mm J 
2 max{F7 }x@ 


m + 
2 2 
i jl 


Uo—uUr = 


(7) 


url 一 ur 三 


(8) 


郭 晓 剑 ， 等 : 


寻 此 累计 奖励 R 最 大 化 同等 与 ur 最 小 ， 由 于 各 活动 的 


预计 工期 上 均 为 常数 ， 则 ur 最 小 同等 与 各 项 目 完 工 工期 与 


拖 期 成 本 乘积 之 和 最 小 即 TTC 最 小 。 


表 1 动作 空间 
Tab. 1 Action space 
序号 名 称 公式 
1 SOF job = min{d;} 
2 LOF job= max{d;} 
3 MINLFT job = min{LFT,} 
4 MINOFT job = min{OFT,} 
s] WMDD job = min{max{LFT; —t,d;}/w;} 
6 WMDD2 job = min{max{OFT; —t,d;y}/w,} 
7 MINSLK job= min{LS; ~max{ES;,t}} 
8 MINLT+OFT p= min{FT' ~LFT.}, job = min{OFT,,} 
9 MINLT+LFT p=min{FT' ~ LFT.}, job = min{LFT,} 
10 MAXLT+OFT p=max{F7’ —LFT}, job = min{OFT,,} 
11 MAXLT+LFT p=max{FT’ —LFT}, job= min{LFT,,} 


12 MINTC+OFT 
13 MINTC+LFT 
14 MAXTC+OFT 
15 MAXTC+LFT 


P=min{w)}, job = min{OFT.,} 


p=min{w}, job = min{L7FT,,} 


p=max{w,}, job = min{OFT.,} 


p=max{w,}, job = min{LFT,,} 


2.4 探索 利用 策略 


合理 的 探索 利 


经 验 知识 ， 同 时 保证 能 够 探索 新 的 策略 行为 。 本 文采 


策略 能 够 使 得 智能 体 充分 利 ) 


所 学 到 的 


索 利 | 


以 下 分 布 : 


rand() <eé 


random rand() >e 


E' =min(énin,E"! X €,0e) 


其 中 :gmin 为 8 的 最 小 值 ， Erate 为 衰减 率 。 
2.5 DDDQN 算法 流程 
a) 定 义 算 法 折扣 因 学 习 率 a， 经 验 池 容 量 M， 


的 探 


策略 为 线性 递减 的 贪 禁 策略 ,智能 体 的 动作 策略 如 下 : 
Se 


(9) 


其 中 :rand(O) 为 一 个 [0,1] 的 随机 数 ，# 为 贪 禁 策 略 的 概率 ， 服 从 


(10) 


周期 L, 目标 网 络 更 新 周 
大 训练 品 合 T_max, 初始 
输入 多 项 目 调度 信息 


b) 重 置 各 项 目 调 
多 项 目 调度 状态 so。 
c) 根 据 当前 状态 


智 


HH 
雌 ZI 


六 
这 


中 的 步骤 b)~e)。 


， 令 step =0。 


网 络 训练 


期 N， 最 小 训练 批量 mini_batch， 最 
化 Q 网 络 与 目标 Q 网 络 参数 0、9”， 


度 计划 信息 并 清除 调度 结果 集 ， 初 始 化 


state 依据 探索 利用 策略 选择 当前 决策 点 


E 体 的 action 选择 的 优先 规则 调度 算法 ， 进 行 多 项 目 调度 


d) 根 据 式 (6) 计 算 当 前 时 刻 的 即时 奖励 值 reward 与 下 一 
时 刻 状 态 state_ 以 及 训练 是 否 结束 标志 done( 结 束 为 True, 未 
结束 为 False)， 将 {state,action,reward,state ,done} 五 元 组 储存 


至 经 验 池 中 。 


6) 判断 是 否 满足 网 络 参数 更 新 条 件 ， 若 是 则 根据 TD 误 
差 对 网 络 参 数 进行 更 新 ， 和 否则 转 至 步骤 们 。 
判断 所 有 项 目 是 否 全 部 完工 , 若是 则 令 step+=1 转 至 步 


骤 多 ， 和 否则 转 至 步骤 c)。 


外 判断 是 否 达 到 最 大 训练 回合 即 step=T_max， 若 是 则 停 


止 训练 并 将 Q 网 络 参数 保存 本 地 ， 


否则 转 至 步 又 


法 1 基于 DDDQN 的 多 项 目 动态 调度 伪 代 码 


1 初始 化 最 小 训练 批量 mini_batch,， 


络 训练 周期 L 和 
作 选 择 次 数 num=0。 


b)。 


step-sizemn， 经 验 池 容量 M， 网 
标 网 络 更 新 周期 N， 最 大 训练 周期 T_max， 动 


2 随机 初始 化 Q 网 络 参 数 6 并 将 其 参数 复制 给 目标 Q "网 络 0 
3 forstep= ltoM do 
4 ” 重 置 多 项 目 调度 信息 、 清 除 调度 结果 ， 初 始 化 调度 状态 s1。 


基于 深度 强化 学 习 的 随机 资源 受 限 多 项 目 动态 调度 策略 


While 多 项 目 活 动 未 全 部 完工 
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then 


5 
6 基于 探索 利用 策略 选择 动 
5 


企及 对 应 的 优先 规则 ,num+=1。 


根据 最 大 优先 规则 执行 


项 目 调度 中 的 步骤 2、3、4 直到 


产生 资源 冲突 。 
8 


计算 当前 奖励 rt 和 下 一 状态 st+1， 


判断 done 是 否 为 True。 


9 将 (st, at,rt,st+1,done) 储存 至 经 验 池 M。 
10 if num % L==0 and num>mini batch then 
11 从 经 验 池 中 随机 选取 mini batch 个 (st, atrtst+l,done)。 
12 forj= 1lto mini batch do 
方 if done = True 

13 令 yj = 

[ +7yQ'"(sju,arg max, O(s;u,4;0),0') otherwise 
14 end for 
15 更 根据 y 与 Q(s,a;9) 采 用 反 向 传播 更 新 Q 网 络 参数 8 
16 end if 


17 if num % N==0 then 


18 将 Q 网 络 的 参数 6 复制 给 目标 Q 网 络 6 二 0 


19 end if 
20 break 
21 end for 


3 ”仿真 实验 


为 验证 所 搭建 仿真 环境 的 有 效 性 以 及 DDDQN 算法 解决 


对 分 布 式 多 项 


含有 5 个 算 例 


动态 调度 问题 的 
准 库 中 的 MP30 .5 和 MP90 2 问题 集 进行 测试 ， 各 问题 集 均 
L 体 信息 如 表 2 所 示 。 实验 在 配备 Windows 10 


有 效 性 ， 选 取 MPSPLIB 标 


64 位 系统 、24GB 运行 内 存 、 处 理 器 为 AMD R7 4800H 的 笔 
记 本 上 搭建 tensflow2.0 环境 下 运行 。 


表 2 问题 集 的 具体 信息 
Tab.2 Specific information of question set 
信息 MP30 5 MP90 2 
项 目 数 5 这 
活动 数 30 90 
问题 规模 150 180 
平均 资源 利用 系数 0.82 0.57 
同时 多 项 目 中 活动 工期 服从 常见 概率 分 布 类 型 如 表 3 所 示 。 
表 3 常见 工期 分 布 
Tab.3 Common duration distribution 
名 称 分 布 类 型 区 间 方差 
Ul 均匀 分 布 [4; ~ Var,dy + Va | di/3 
U2 均匀 分 布 [0,24;] di2/3 
EXP 指数 分 布 dye ™ di 
Bl B 分 布 QC=d;/2-1/3,P=20 di/3 
B2 B 分 布 2&=1/6.0=2w di2/3 
3.1 参数 分 析 


在 强化 学 习 中 超 参数 对 于 网 络 学 习性 能 至 关 重 要 ， 目 前 
对 于 超 参 数 的 确定 一 般 依靠 人 工 经 验 和 随机 搜索 。》 


优 的 超 参数 组 合 ， 本 文选 用 算 例 MP30_5_5 在 工期 为 Ul 分 


布 类 型 对 模型 的 网 络 结构 、 速 率 rate、 目标 网 络 更 新 周 其 


最 小 训练 批量 mini_batch、 折 扣 率 y 等 超 参数 进行 了 灵敏 度 


分 析 ， 同 时 在 对 某 一 超 参数 进 
取 值 均 保持 不 变 。 图 
的 累计 奖励 和 迭代 图 ， 通 过 j 
该 超 参数 取 值 的 效果 。 以 图 


行 灵 敏 度 分 析 时 其 他 超 参数 的 
1 为 DRL 模型 的 超 参数 在 不 同 取 值 下 
练 过 程 中 累计 奖励 的 变化 来 判断 
1(a) 为 例 
练 次 数 ， 纵 坐标 为 累计 奖励 的 变化 
不 同 网 络 结构 能 够 影响 算法 的 性 能 ， 


其 横 坐 标 为 模型 的 训 
线 。 从 该 图 中 可 以 看 出 
当 网 络 结构 取 值 为 红线 


所 示 时 算法 的 性 能 最 佳 ， 将 其 确定 为 本 文 模型 的 网 络 结构 ， 


此 时 其 他 参数 均 保 持 不 变 。 同 


可 得 模型 的 其 他 超 参数 的 取 


值 ， 最 终 确定 超 参 数 策略 如 表 4 所 示 。 
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图 1(a) 表 示 五 种 不 同 卷 积 层 对 算法 的 影响 ， 每 一 行 表示 10[ 
滤波 器 数量 和 内 核 大 小 其 中 步 幅 均 为 (1, D。 由 图 中 可 以 看 出 


第 4 种 网 络 结构 相对 于 其 他 四 种 ， 能 够 为 算法 带 来 更 有 效 的 
性 能 提升 。 图 1(b) 表 示 不 同 的 学 习 率 对 于 算法 的 影响 ， 可 以 fy 
看 当 rate 较 低 时 算法 训练 性 能 最 差 ， 而 rate 较 高 时 算法 性 能 让 


所 下 降 ， 因 此 本 文选 取 学 习 率 为 0.0001。 图 1(c) 表 示 不 同 ol 
的 目标 网 络 更 新 周期 对 算法 的 影响 ， 从 图 中 可 以 看 出 当 | 
N=100 周期 的 训练 性 能 最 好 。 图 1(d) 可 以 看 出 最 小 训练 批量 4 
对 算法 的 影响 较 小 ， 当 mini_batch 为 64 时 算法 的 性 能 会 有 0 1k 2k 3k 4k 5k 


一 “0.99 


(e) 折扣 率 ? 


一 一 0.97 


所 下 降 ， 当 mini _batch 为 256 或 128 时 算法 的 收敛 趋势 较为 | 
稳定 , 但 由 于 256 需要 更 多 的 训练 时 间 因此 选用 128。 图 1(e) 

表示 不 同 的 折扣 系数 对 于 算法 的 影响 ， 同 理 当 y 较 低 时 会 降 图 1 各 超 参 数 的 验证 结果 

低 算 法 性 能 ， 当 Y 较 高 时 算法 收敛 较 慢 ， 选 取 0.99 折扣 率 。 Fig. 1 Verification results of each hyperparameter 
DRL 模型 求解 问题 集 
本 节 将 本 文 提 出 的 DRL 模型 运用 至 两 种 问题 集 的 10 个 
算 例 上 ， 实 验 分 为 模型 训练 阶段 和 测试 阶段 。 在 训练 阶段 ， 
将 DRL 模型 分 别 在 不 同 工 期 分 布下 的 10 个 算 例 分 别 进行 
5000 次 仿真 训练 ， 模 型 的 超 参数 取 值 策略 如 表 4 所 示 ， 并 将 
各 算 例 训练 完成 的 模型 保存 本 地 。 在 模型 的 测试 阶段 ， 将 10 
个 算 例 所 训练 完成 的 10 个 模型 分 别 在 对 应 算 例 的 5 种 工期 


3.2 
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Bi 分 布下 进行 50 次 仿真 调度 求 得 平均 的 TTC。 
3 1k 2k 3k 4k 4k 表 4 超 参 数组 合 
人 说 wy Tab. 4 Hyperparameter combinations 
守 超 参 数 取 值 
(a) 网 络 结构 T_max 5000 
10r 村 Emin 105 
8 上 ] Erate 0.9999 
el PN rate 10?3 
wi | M 105 
N 100 
mini_batch 128 
Y 0.99 
工 20 
0 1k 2k 3k 4k 5k 图 2 为 算 例 MP30 5 5 在 五 种 工期 分 布下 的 训练 过 程 ， 
0 1 其 中 横 坐标 为 多 项 目的 总 拖 期 成 本 ， 纵 坐标 为 模型 的 训练 下 
(b) 学 习 率 合 。 可 以 看 出 对 于 方差 相对 较 小 的 U1、B1 的 TTC 迭代 曲线 
9 ] 处 于 最 下 方 且 波动 最 小 , 对 于 方差 中 等 的 U2、B2 的 TTC 连 
代 曲 线 处 于 中 间 位 置 且 波 动 中 等 ， 对 于 方差 较 大 的 Exp 的 


TTC 迭代 曲线 处 于 最 上 方位 置 且 波 动 较 大 ， 表 明 总 拖 期 成 本 
的 期 望 水 平 随 着 活动 工期 不 确定 程度 的 增加 而 增 大 。 
12000[ 
2 上 
10000 上 
OF 
这 | J 
0 1k 2k 3k 4k Sk 


一 一 64 一 128 


(c) 最 小 训练 批量 mini_batch 


人 tk 2k 3k 4k Sk 
U1 U2 Exp B1 B2 
,| | 图 2 不 同 工 期 分 布下 的 TTC 迭代 过 程 

ol Fig.2 TTC iteration process under different duration distributions 
对 于 算 例 MP30_5_5 训练 完成 的 模型 的 测试 阶段 ， 将 训 
| 练 完成 模型 与 动作 空间 中 15 种 单一 调度 规则 在 对 应 工期 分 

0 人 k 2k ak 4k Sk 布下 分 别 进行 50 次 仿真 调度 求 得 平均 的 TTC 如 图 3 所 示 。 
一 — ~ 由 图 3 可 以 看 出 DRL 算法 克服 单一 规则 的 短视 性 ， 在 动态 
(d) 目标 网 络 更 新 周期 N 环境 中 获得 更 好 的 调度 结果 。 进 一 步 的 选取 15 种 规则 在 5 种 
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工期 分 布下 表现 最 好 的 规则 与 DRL 模型 所 得 的 结果 进行 对 
比 并 以 改进 率 improve 作为 评价 指标 , 如 式 (11) 所 示 。 强化 学 
习 改 进 率 如 表 5 所 示 。 


x104 


agent A1 A2 A3 A4 A5 A6 A7 A8 A9 A10 AI1 A12 A13 A14 A15 


不 同 工 期 分 布下 各 动作 的 TTC 
Fig.3 TTC of each action under different duration distributions 
表 6 为 优先 规则 算法 和 DRL 模型 调度 在 完成 50 次 多 项 
目 调度 过 程 的 运行 时 间 。 可 以 看 出 与 优先 规则 调度 算法 相 比 ， 
训练 后 的 模型 可 以 根据 环境 的 当前 状态 快速 作出 最 优 调度 决 
策 ， 速 度 相 当 于 优先 规则 算法 。 
MP30_5 与 MP90 2 问题 集 在 不 同 工 期 分 布下 50 次 调度 
的 平均 TTC 值 如 表 7 所 示 。 对 比 文 献 [9], 其 中 MP30 5 的 在 
U1 分 布下 的 结果 本 文 较 差 ， 而 MP90 2 的 结果 本 文 较 优 。 


Best—agent 


图 3 


improve=— Bo X100% (11) 
表 5 强化 学 习 改 进 率 

Tab.5 Improvement rate of reinforcement learning 
分 布 agent Best rule Improve(%) 
Ul 4286.25 5455.55 21.43 
U2 4890.75 5952.62 17.84 
Exp 5825.32 7219.41 19.31 
Bl 4319.49 5632.16 23;31 
B2 4889.91 6102.43 19.87 


表 6 单一 规则 和 DRL 算法 调度 时 间 
Tab.6 Single rule and DRL algorithm scheduling time 


Scheduling time MP30 2 MP30 5 MP30 10 
Single rule 2.24 2.64 3.16 
DRL 2.58 3.04 3.98 


表 7 问题 集 不 同 分 布下 DRL 结 
Tab.7 DRL results under different distributions of problem sets 


TTC 1 2 3 4 ] 
MP30 5 1467.57 1748.06 1422.57 1783.27 2279.03 
Mp90 2 1001.58 1524.73 1025.81 1439.44 C2497.44 


3.3 不 确定 到 达 时 间 

在 实际 情况 中 项 目的 到 达 时 间 往 往 会 因 局 部 资源 的 缺乏 
而 与 预计 的 到 达 时 间 产 生 偏 差 。 因 此 本 节 研 究 了 DRL 模型 
在 项 目 到 达 时 间 不 确定 环境 下 对 多 项 目 总 拖 期 成 本 的 影响 ， 
其 中 项 目 活动 的 工期 为 党 工期 分 布 ， 项 目 到 达 时 间 服 从 以 下 


Ul a=0 
U2 a=1 
ST =1Exp A= (12) 
Bl a=3 
B2 a=4 


式 (12) 中 的 分 布 类 型 特征 与 3.2 工期 分 布 相同 ; a 为 [0,4] 
的 随 TC =(FEGT+D-ST-cpli)xc 机 整数 , 例如 当 a=0 时 表示 项 
目 i 的 到 达 时 间 为 服从 U1 分 布 的 随机 数 。 
多 项 目 到 达 时 间 不 确定 所 产生 的 状态 组 合 小 于 不 确定 工 
期 情况 ， 因 此 DRL 模型 的 训练 回合 设置 为 5000 次 且 模 型 的 
超 参 数组 合 与 3.2 节 相 同 。 图 4 为 模型 训练 过 程 的 总 拖 期 成 


五 


基于 深度 强化 学 习 的 随机 资源 受 限 多 项 目 动态 调度 策略 


本 TTC 的 变化 


的 
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线 ， 在 训练 的 过 程 中 TTC 随 着 训练 的 回合 
增加 不 断 减少 并 趋 于 稳定 ， 表 明 模 型 进行 了 有 效 的 训练 。 
同时 现 有 文献 并 未 有 对 不 确定 项 目 到 达 时 间 的 
因此 将 训练 完成 的 模型 进行 100 次 仿真 


/全 甘 日 工 || 
上 期 | 


| 


实验 后 所 得 的 平均 TTC 值 3022.01, 与 15 种 规则 中 最 优 规则 


的 TTC 值 4973.75 进行 对 比 ， 其 改进 率 为 64.6%。 
8000r 
7000 上 
6000 
5000r 
4000 7 员 
| Www 
2000 - 
1k 2k 3k 4k Sk 
图 4 项 目 到 达 时 间 不 确定 
Fig.4 Uncertain arrival time of the project 
4 ”结束 语 
本 文 首次 将 深度 强化 学 习 运 用 至 多 项 目 调度 问题 ， 在 此 
基础 上 提出 基于 DRL 的 分 布 式 多 项 目 动态 调度 模型 ， 以 实 
现 随机 工期 下 分 布 式 多 项 目 调度 问题 总 拖 期 成 本 最 小 化 的 目 
标 。 并 搭建 了 智能 体 交 互 的 仿真 环境 ， 以 算 例 MP30 5 和 
MP90 2 问题 集中 的 算 例 进行 仿真 实验 ， 一 方面 对 模型 的 超 
参数 取 值 策略 进行 灵敏 度 分 析 ， 男 一 方面 对 通过 算 例 对 模型 
进行 训练 和 测试 。 结 果 表 明 本 文 所 提出 的 DRL 模型 对 于 实 
现 分 布 式 多 项 目 在 随机 环境 下 的 动态 调度 有 一 定 优势 ， 训 练 


好 的 模型 在 决策 阶段 的 作出 策略 的 速度 与 优先 规则 相差 无 几 ， 
同时 能 够 有 效 降 低 随 机 分 布 式 多 项 目 调度 所 需 的 总 拖 期 成 本 ， 
拓展 了 深度 强化 学 习 在 随机 性 项 目 调度 问题 上 的 运用 。 
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